TF-IDF এবং Bag of Words মডেল

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Text Classification এবং Natural Language Processing (NLP)
217

TF-IDF (Term Frequency-Inverse Document Frequency) এবং Bag of Words (BoW) হলো দুটি জনপ্রিয় টেক্সট প্রক্রিয়াকরণ পদ্ধতি, যা Natural Language Processing (NLP) এবং Text Mining-এ ব্যবহৃত হয়। এগুলি টেক্সট ডেটাকে সংখ্যার আকারে রূপান্তর করতে ব্যবহৃত হয়, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেই ডেটা ব্যবহার করতে পারে।


1. Bag of Words (BoW) মডেল

Bag of Words একটি সহজ এবং বেসিক টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা টেক্সট ডেটাকে একটি শব্দের ভেক্টর হিসেবে রূপান্তরিত করে। এই মডেলটি একটি ডকুমেন্টের মধ্যে উপস্থিত শব্দগুলির উপস্থিতি এবং তাদের গননা (frequency) ব্যবহার করে একটি ভেক্টর তৈরি করে।

BoW মডেলের বৈশিষ্ট্য:

  • শব্দের অর্ডার গুরুত্বপূর্ণ নয়: শব্দের অর্ডার বা সিকোয়েন্স এখানে গোনা হয় না। শুধু শব্দের উপস্থিতি বা তাদের সংখ্যা গোনা হয়।
  • শব্দের উপস্থিতি: প্রত্যেকটি শব্দকে একটি ফিচার হিসেবে গণ্য করা হয় এবং এই শব্দগুলির উপস্থিতি ও সংখ্যা ভেক্টর ফিচার হিসেবে রূপান্তরিত করা হয়।

ফর্মুলা:

ধরা যাক, আমাদের দুটি ডকুমেন্ট:

  1. "I love programming"
  2. "Programming is fun"

এখন, সমস্ত ডকুমেন্টের জন্য একটি শব্দভাণ্ডার তৈরি করা হবে:

  • শব্দভাণ্ডার: ["I", "love", "programming", "is", "fun"]

এখন প্রতিটি ডকুমেন্টের জন্য একটি ভেক্টর তৈরি করা হবে, যেখানে প্রতিটি শব্দের উপস্থিতি গোনা হবে:

  • ডকুমেন্ট 1: [1, 1, 1, 0, 0] (I, love, programming, is, fun)
  • ডকুমেন্ট 2: [0, 0, 1, 1, 1] (I, love, programming, is, fun)

ব্যবহার:

  • BoW মডেল সাধারণত টেক্সট ক্লাসিফিকেশন এবং টেক্সট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।
  • এটি সাধারণত টেক্সট ক্লাসিফিকেশন সমস্যা (যেমন স্প্যাম ইমেইল শনাক্তকরণ) এবং অন্যান্য NLP কাজ (যেমন শব্দ বিশ্লেষণ, সেন্টিমেন্ট অ্যানালাইসিস) তে ব্যবহৃত হয়।

সীমাবদ্ধতা:

  • শব্দের অর্ডার গুরুত্বহীন, তাই ভাষার প্রাকৃতিক গঠন (syntax) বা অর্থ (semantic) মডেলটি বিবেচনায় নেয় না।
  • এটি বিশাল ভেক্টর তৈরি করতে পারে, বিশেষ করে যদি ডেটাসেটে অনেক বড় শব্দভাণ্ডার থাকে।

2. TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF হলো একটি উন্নত মেট্রিক যা Term Frequency (TF) এবং Inverse Document Frequency (IDF) এর সংমিশ্রণ। এটি শব্দের গুরুত্ব পরিমাপ করে, যাতে সাধারণ শব্দগুলির তুলনায় গুরুত্বপূর্ণ শব্দগুলির উপর বেশি গুরুত্ব দেওয়া হয়।

TF-IDF এর দুটি মূল অংশ:

  1. Term Frequency (TF): এটি একটি নির্দিষ্ট শব্দের ডকুমেন্টে উপস্থিতির গননা (frequency) হিসাব করে। সাধারণত, শব্দের প্রাসঙ্গিকতা যতো বেশি, তার TF ততো বেশি হবে।

    ফর্মুলা:

    TF=শব্দের উপস্থিতি গননাডকুমেন্টের মোট শব্দ সংখ্যা\text{TF} = \frac{\text{শব্দের উপস্থিতি গননা}}{\text{ডকুমেন্টের মোট শব্দ সংখ্যা}}

  2. Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব পরিমাপ করে ডকুমেন্টের মধ্যে সেই শব্দের বিরলতা পরিমাপ করে। একটি শব্দ যদি ডকুমেন্টের মধ্যে বেশিরভাগ সময় উপস্থিত থাকে, তবে তার IDF কম হবে, কারণ এটি সাধারণ শব্দ।

    ফর্মুলা:

    IDF=log(মোট ডকুমেন্ট সংখ্যাযে ডকুমেন্টগুলিতে শব্দটি উপস্থিত আছে তাদের সংখ্যা)\text{IDF} = \log \left( \frac{\text{মোট ডকুমেন্ট সংখ্যা}}{\text{যে ডকুমেন্টগুলিতে শব্দটি উপস্থিত আছে তাদের সংখ্যা}} \right)

  3. TF-IDF: TF এবং IDF এর গুনফল হলো TF-IDF, যা শব্দের গুরুত্ব বা প্রাসঙ্গিকতা পরিমাপ করে।

    ফর্মুলা:

    TF-IDF=TF×IDF\text{TF-IDF} = \text{TF} \times \text{IDF}

ব্যবহার:

  • TF-IDF বেশি ব্যবহৃত হয় টেক্সট মাইনিং এবং ডকুমেন্ট ক্লাসিফিকেশন এ, যেখানে শুধুমাত্র গুরুত্বপূর্ণ শব্দগুলিকে গুরুত্ব দেয়া হয়।
  • এটি অনলাইন সার্চ ইঞ্জিন এবং রেকমেন্ডেশন সিস্টেম গুলিতে ব্যবহৃত হয়, যাতে বিভিন্ন শব্দের মধ্যে প্রাসঙ্গিকতা নির্ধারণ করা যায়।

উদাহরণ:

ধরা যাক, দুটি ডকুমেন্ট:

  1. "I love programming"
  2. "Programming is fun"

এখন, "programming" শব্দের TF-IDF বের করার জন্য:

  • TF(programming) = 1 (কারণ এটি প্রতি ডকুমেন্টে একবারই এসেছে)
  • IDF(programming) = log(22)=0\log \left( \frac{2}{2} \right) = 0 (যেহেতু এটি দুইটি ডকুমেন্টেই উপস্থিত)

তাহলে, TF-IDF(programming) = 1 × 0 = 0।


BoW এবং TF-IDF এর মধ্যে পার্থক্য

বৈশিষ্ট্যBag of Words (BoW)TF-IDF
শব্দের গুরুত্বসব শব্দকে সমান গুরুত্ব দেয়।সাধারণ শব্দগুলির তুলনায় বিরল বা গুরুত্বপূর্ণ শব্দকে বেশি গুরুত্ব দেয়।
কম্পিউটেশনাল খরচসাধারণ এবং কম্পিউটেশনে সহজ।একটু বেশি কম্পিউটেশনাল খরচ হতে পারে কারণ TF এবং IDF হিসাব করতে হয়।
পাঠ্য এর বৈশিষ্ট্যশুধুমাত্র শব্দের উপস্থিতি গোনে, অর্ডার বা সংজ্ঞা বিবেচনায় নেয় না।শব্দের গুরুত্বকে যাচাই করে, যা টেক্সটের মূল উপাদান বা অর্থ বোঝার জন্য সহায়ক।

সারাংশ

  • Bag of Words (BoW) একটি সহজ পদ্ধতি যা ডকুমেন্টের শব্দগুলির উপস্থিতি এবং গননা নির্ধারণ করে, তবে শব্দের অর্ডার বা অর্থের মধ্যে কোনো পার্থক্য ধরা হয় না।
  • TF-IDF একটি উন্নত পদ্ধতি যা শব্দের গুরুত্বকে পরিমাপ করে, যেটি টেক্সটের প্রাসঙ্গিকতা বা মুল বিষয়গুলো চিহ্নিত করতে সাহায্য করে। TF-IDF সাধারণত BoW এর চেয়ে বেশি কার্যকর যখন ডেটাতে সাধারণ বা কম গুরুত্বপূর্ণ শব্দ থাকতে পারে।

TF-IDF মডেল সাধারণত টেক্সট ক্লাসিফিকেশন, ইনফর্মেশন রিট্রিভাল, এবং ডকুমেন্ট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...